1
Переход за пределы общих подсказок
AI011Lesson 7
00:00

Оптимизация через дообучение и специализированные архитектуры

1. За пределами подсказки

Хотя «малошотное» промптирующее является мощной отправной точкой, масштабирование решений на основе ИИ часто требует перехода к Обучению с учителем (дообучению). Этот процесс непосредственно интегрирует конкретные знания или поведения в веса модели.

Решение: Вы должны использовать дообучение только тогда, когда улучшение качества ответов и снижение затрат на токены превышают значительные затраты на вычисления и подготовку данных.

$Стоимость = Токены \times Ставка$

2. Революция малых языковых моделей

Малые языковые модели (SLM) являются высокопроизводительными, уменьшенными версиями своих крупных аналогов (например, Phi-3.5, Mistral Small). Они обучены на хорошо отобранных, высококачественных данных.

Компромиссы: SLM предлагают значительно меньшую задержку и позволяют развертывать модели на краевых устройствах (работающие локально на устройствах), но при этом жертвуют широкой, обобщённой «человеческой» интеллектуальностью, характерной для крупных моделей ИИ.

3. Специализированные архитектуры

  • Смесь экспертов (MoE): Техника, которая увеличивает общий размер модели, сохраняя вычислительную эффективность во время вывода. Для каждого токена активируется только подмножество «экспертов» (например, Phi-3.5-MoE).
  • Мультимодальность: Архитектуры, предназначенные для одновременной обработки текста, изображений и иногда аудио, расширяя применение за рамки генерации текста (например, Llama 3.2).
Иерархия эффективности
Всегда пытайтесь сначала Промпт-инжиниринг первым. Если это не сработает, применяйте RAG (генерация с поддержкой поиска). Используйте дообучение только как последний этап продвинутой оптимизации.
model_selection.py
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>
Question 1
When does the course recommend proceeding with fine-tuning over prompt engineering?
When the benefits in quality and cost (reduced token usage) outweigh compute effort.
Whenever you need the model to sound more human-like.
As the very first step before trying RAG or prompt engineering.
Only when deploying to an edge device.
Question 2
Which model architecture allows scaling model size while maintaining computational efficiency?
Supervised Fine-Tuning (SFT)
Retrieval-Augmented Generation (RAG)
Mixture of Experts (MoE)
Multimodality
Challenge: Edge Deployment Strategy
Apply your knowledge to a real-world scenario.
You need to deploy a multilingual translation tool that runs locally on a laptop with limited GPU resources.
Task 1
Select the appropriate model family and tokenizer for this multilingual, low-resource task.
Solution:
Mistral NeMo with the Tekken Tokenizer. It is optimized for multilingual text and fits within SLM constraints.
Task 2
Define the deployment framework for high-performance local inference.
Solution:
Use ONNX Runtime or Ollama for local execution to maximize hardware acceleration on the laptop.